1 Ostatecznie wybrane cechy:
- ACTIVE
- CLOSED
- STATUS_0
- STATUS_1
- STATUS_M
- FLAG_DOCUMENT_3
- DAYS_BIRTH
- CODE_GENDER
- EXT_SOURCE_2
- AMT_CREDIT
- AMT_GOODS_PRICE
2 PorĂłwnanie modeli
Wybrane modele:
- bartMachine - Bayesian Additive Regression Trees
- logreg - Logistic Regression
- ranger - Random Forests
- xgboost - eXtreme Gradient Boosting
- svm - Support Vector Machine
Strojenia hiperparametrĂłw dokonywaliĆmy, ÄwiczÄ c modele na zbiorze testowym, a sprawdzajÄ c wyniki na zbiorze walidacyjnym. Na koĆcu, dla najlepszych hiperparamtrĂłw, popatrzyliĆmy na wyniki na zbiorze testowym.
2.1 logreg
Metoda: skalowanie i standaryzacja niektĂłrych zmiennych
Auc na zbiorze testowym: 0,705
2.2 ranger
Metoda: strojenie hiperparamentrĂłw dla 500 drzew na caĆym zbiorze treningowym przy pomocy funkcji makeTuneControlGrid(resolution = 12L) (mieliĆmy tylko 12 zmiennych)
Optymalne hiperparametry: mtry = 1
Auc na zbiorze testowym: 0,710
2.3 svm
Metoda: stojenie hiperparametrĂłw przy pomocy optymalizacji opartej na modelu - pakiet mlrMBO. Zakres parametrĂłw: * kernel: linear, polynomial, radial, sigmoid, * cost: 2e-15 â 2e15 * gamma (dla kernel = radial): 2e-15 â 2e15 * degree (dla kernel = polynomial): 1 â 4
Optymalne hiperparametry: kernel = linear, cost = 0,843
Auc na zbiorze testowym: 0,637
2.4 bartMachine
Metoda: strojenie hiperparametrĂłw na caĆym zbiorze treningowym, za pomocÄ funkcji makeTuneControlRandom() z 50 iteracjami
Zakres parametrĂłw: * num_trees: 50 â 190 * k: 1 â 5 * q 0.4 â 0.9 * prob_rule_class: 0.3 â 0.5
Optymalne hiperparametry: num_trees = 170, k = 3,75, q = 0,5, prob_rule_class = 0,409
Auc na zbiorze testowym = 0,71
2.5 xgboost
Metoda: strojenie hiperparametrĂłw na podzbiorze zbioru treninowego, za pomocÄ funkcji makeTuneControlRandom() z 100 iteracjami
Optymalne hiperparametry: eta (learning rate) = 0,105, nrounds = 251, max_depth = 2
Auc na zbiorze walidacyjnym: 0,707
3 Ostatecznie wybrany model